在医学领域,MRI的地标检测在减少扫描计划,图像登记等中的任务中减少医疗技术人员努力方面发挥着重要作用。首先,88个地标在三个相应的观点中分布在三个相应的观点中 - 矢状,冠状动脉和轴向手动注释,专家临床技术人员的后期准则被划分解剖学,以便更好地定位现有地标,以便即使在斜扫描中也定位重要的地图标志性地标。为了克服有限的数据可用性,我们实施现实的数据增强以生成合成3D容量数据。我们使用修改后的HIGHRES3DNET模型来解决脑MRI容量的地标检测问题。为了在视觉上解释我们的培训模型,并从较弱的模型中辨别更强的模型,我们实现了梯度加权类激活映射(GRAC-CAM),它产生突出显示模型聚焦的区域的粗糙定位图。我们的实验表明,该方法显示出有利的结果,并且整个管道可以扩展到可变数量的地标和其他解剖。
translated by 谷歌翻译
Cutting-edge diffusion models produce images with high quality and customizability, enabling them to be used for commercial art and graphic design purposes. But do diffusion models create unique works of art, or are they stealing content directly from their training sets? In this work, we study image retrieval frameworks that enable us to compare generated images with training samples and detect when content has been replicated. Applying our frameworks to diffusion models trained on multiple datasets including Oxford flowers, Celeb-A, ImageNet, and LAION, we discuss how factors such as training set size impact rates of content replication. We also identify cases where diffusion models, including the popular Stable Diffusion model, blatantly copy from their training data.
translated by 谷歌翻译
We present a framework for ranking images within their class based on the strength of spurious cues present. By measuring the gap in accuracy on the highest and lowest ranked images (we call this spurious gap), we assess spurious feature reliance for $89$ diverse ImageNet models, finding that even the best models underperform in images with weak spurious presence. However, the effect of spurious cues varies far more dramatically across classes, emphasizing the crucial, often overlooked, class-dependence of the spurious correlation problem. While most spurious features we observe are clarifying (i.e. improving test-time accuracy when present, as is typically expected), we surprisingly find many cases of confusing spurious features, where models perform better when they are absent. We then close the spurious gap by training new classification heads on lowly ranked (i.e. without common spurious cues) images, resulting in improved effective robustness to distribution shifts (ObjectNet, ImageNet-R, ImageNet-Sketch). We also propose a second metric to assess feature reliability, finding that spurious features are generally less reliable than non-spurious (core) ones, though again, spurious features can be more reliable for certain classes. To enable our analysis, we annotated $5,000$ feature-class dependencies over {\it all} of ImageNet as core or spurious using minimal human supervision. Finally, we show the feature discovery and spuriosity ranking framework can be extended to other datasets like CelebA and WaterBirds in a lightweight fashion with only linear layer training, leading to discovering a previously unknown racial bias in the Celeb-A hair classification.
translated by 谷歌翻译
Automation in farming processes is a growing field of research in both academia and industries. A considerable amount of work has been put into this field to develop systems robust enough for farming. Terrace farming, in particular, provides a varying set of challenges, including robust stair climbing methods and stable navigation in unstructured terrains. We propose the design of a novel autonomous terrace farming robot, Aarohi, that can effectively climb steep terraces of considerable heights and execute several farming operations. The design optimisation strategy for the overall mechanical structure is elucidated. Further, the embedded and software architecture along with fail-safe strategies are presented for a working prototype. Algorithms for autonomous traversal over the terrace steps using the scissor lift mechanism and performing various farming operations have also been discussed. The adaptability of the design to specific operational requirements and modular farm tools allow Aarohi to be customised for a wide variety of use cases.
translated by 谷歌翻译
深度神经网络(DNN)几乎在商业,技术和科学上几乎普遍存在计算机视觉任务中实现了前所未有的表现。尽管为高度准确的体系结构而做出了大量的努力并提供了可用的模型解释,但大多数最先进的方法首先是为自然视觉设计的,然后转换为医疗领域。本论文旨在通过提出新的体系结构来解决这一差距,这些新型体系结构将医学成像的特定域约束纳入DNN模型和解释设计。
translated by 谷歌翻译
多养殖养殖具有环境优势,但比单一养殖需要更修剪。我们介绍用于自动修剪的新型硬件和算法。自主系统使用高架摄像头从物理规模的花园测试床中收集数据,利用学识渊博的植物表型卷积神经网络和边界磁盘跟踪算法来评估单个植物分布并每天估算花园的状态。从这个花园状态下,Alphagardensim选择植物自主修剪。训练有素的神经网络检测并靶向工厂上的特定修发点。实验评估了两种与农业机器人龙门系统兼容的定制设计的修剪工具,并通过受控算法进行了自主削减。我们提出了四个60天的花园周期的结果。结果表明,该系统可以自主实现0.94个归一化的植物多样性,并在修剪剪切的同时保持平均冠层覆盖率为0.84,到周期结束时。有关代码,视频和数据集,请参见https://sites.google.com/berkeley.edu/pruningpolyculture。
translated by 谷歌翻译
建模是什么使广告有说服力的原因,即引起消费者的所需响应,对于宣传,社会心理学和营销的研究至关重要。尽管其重要性,但计算机视觉中说服力的计算建模仍处于起步阶段,这主要是由于缺乏可以提供与ADS相关的说服力标签的基准数据集。由社会心理学和市场营销中的说服文学的激励,我们引入了广泛的说服策略词汇,并建立了用说服策略注释的第一个AD图像语料库。然后,我们通过多模式学习制定说服策略预测的任务,在该任务中,我们设计了一个多任务注意融合模型,该模型可以利用其他广告理解的任务来预测说服策略。此外,我们对30家财富500家公司的1600个广告活动进行了真实的案例研究,我们使用模型的预测来分析哪些策略与不同的人口统计学(年龄和性别)一起使用。该数据集还提供图像分割掩码,该蒙版在测试拆分上标记了相应的AD图像中的说服力策略。我们公开发布代码和数据集https://midas-research.github.io/persuasion-avertisements/。
translated by 谷歌翻译
我们首次建议使用基于多个实例学习的无卷积变压器模型,称为多个实例神经图像变压器(Minit),以分类T1Weighted(T1W)MRIS。我们首先介绍了为神经图像采用的几种变压器模型。这些模型从输入体积提取非重叠的3D块,并对其线性投影进行多头自我注意。另一方面,Minit将输入MRI的每个非重叠的3D块视为其自己的实例,将其进一步分为非重叠的3D贴片,并在其上计算了多头自我注意力。作为概念验证,我们通过训练模型来评估模型的功效,以确定两个公共数据集的T1W-MRIS:青少年脑认知发展(ABCD)和青少年酒精和神经发展联盟(NCANDA)(NCANDA) 。博学的注意力图突出了有助于识别脑形态计量学性别差异的体素。该代码可在https://github.com/singlaayush/minit上找到。
translated by 谷歌翻译
丰富的时间信息和视角中的变化使视频数据成为使用无监督的对比度学习(UCL)技术学习图像表示的有吸引力的选择。最先进的(SOTA)对比度学习技术将视频中的帧视为嵌入空间中的阳性,而其他视频的框架则被视为负面因素。我们观察到,与自然场景视频中对象的多种视图不同,超声(US)视频捕获了器官的不同2D片。因此,即使是相同的美国视频的暂时遥远框架之间几乎没有相似之处。在本文中,我们建议相反使用诸如硬底面的框架。我们主张在UCL框架中对硬度敏感的负挖掘课程进行挖掘,并在硬度敏感的负面挖掘课程中挖掘,以学习丰富的图像表示。我们部署框架以从美国视频中学习胆囊(GB)恶性肿瘤的表示。我们还构建了第一个大型US视频数据集,其中包含64个视频和15,800帧,用于学习GB表示。我们表明,经过我们框架训练的标准RESNET50骨干线可以提高使用SOTA UCL技术预测的模型的准确性,并在Imagenet上对ImageNet上的有监督的预处理模型提高了GB恶性检测任务的预期模型,提高了2-6%。我们进一步验证了方法在COVID-19病理的公开肺图像数据集上的普遍性,与SOTA相比,改善了1.5%。源代码,数据集和模型可在https://gbc-iitd.github.io/usucl上找到。
translated by 谷歌翻译
对于大多数现有的联合学习算法,每一轮都包括最大程度地减少每个客户端的损失功能,以在客户端学习最佳模型,然后在服务器上汇总这些客户端模型。客户端的模型参数的点估计并未考虑到每个客户端估计的模型中的不确定性。但是,在许多情况下,尤其是在有限的数据设置中,考虑到客户模型中的不确定性以实现更准确和健壮的预测是有益的。不确定性还为其他重要任务提供了有用的信息,例如主动学习和分布(OOD)检测。我们提出了一个贝叶斯联合学习的框架,每个客户都使用其培训数据侵入后验预测分布,并提出各种方法,以在服务器上汇总这些特定于客户端的预测分布。由于交流和汇总预测分布可能具有挑战性且昂贵,因此我们的方法基于将每个客户的预测分布提炼成一个深层的神经网络。这使我们能够利用标准联合学习的进步,也可以为贝叶斯联邦学习。与最近试图估算每个客户模型不确定性的最近作品不同,我们的工作也没有做出任何限制性假设,例如客户后分布的形式。我们评估了我们在联合环境中的分类方法,以及在联邦设置中的积极学习和OOD检测,我们的方法在其上优于各种现有的联合学习基线。
translated by 谷歌翻译